Segmentation de flux de documents. Application aux documents administratifs
نویسندگان
چکیده
RÉSUMÉ. Cet article propose une approche de segmentation supervisée de flux de documents. L'approche traite le flux de documents comme une suite de paires de pages et étudie la relation qui existe entre elles pour déceler une continuité de documents ou une rupture. Dans un premier temps, des descripteurs sont extraits des pages et une approche est proposée pour fusionner ces descripteurs en un seul vecteur qui modélise la relation entre les paires de pages. Cette représentation est fournie à un classifieur binaire qui la classifie comme étant XQH UXSWXUH V\QRQ\PH GH VHJPHQWDWLRQ RX XQH FRQWLQXLWp 'DQV OH FDV G¶XQH UXSWXUH QRXV considérons que nous avons atteint la OLPLWH G XQ GRFXPHQW FRPSOHW HW O¶DQDO\VH GX IOX[ FRQWLQXH HQ FRPPHQoDQW SDU XQ QRXYHDX GRFXPHQW (Q FDV G¶XQH FRQWLQXLWp OHV GHX[ SDJHV VRQW FRQVLGpUpHV FRPPH DSSDUWHQDQW j XQ PrPH GRFXPHQW 6¶LO \ D XQH LQFHUWLWXGH VXU OD classe de la limite, un rejet HVW GpFLGp HW OHV SDJHV DQDO\VpHV MXVTX¶j FH SRLQW VRQW considérées comme un « fragment » on réalise ici une sur-segmentation. Cette classification donne de bons résultats approchant 90% sur certains documents, ce qui est élevé à ce niveau du système.
منابع مشابه
Recherche de motifs graduels et application aux données médicales. (Gradual patterns extraction and application to health data)
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملDiagnostic décentralisé de systèmes à événements discrets : application aux réseaux de télécommunications
HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau...
متن کاملDigitized ancient documents; What's next?
RÉSUMÉ. Les collections numériques de documents de l’héritage culturel sont la plupart du temps des images scannées. Actuellement ces documents sont disponibles sur internet, mais ont besoin d’annotations manuelles qui expliquent leur contenu afin de les rendre accessibles et exploitables. L’annotation manuelle est coûteuse et fastidieuse, mais le travail collaboratif peut l’accélérer. Ce trava...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کامل